データアナリティクス事業本部の機械学習チームについてのご紹介
データアナリティクス事業本部(DA事業本部)機械学習チームの貞松です。 今回からちゃんと「機械学習チーム」部分も押していく所存です。
当社クラスメソッドの18期(期初7月)から、改めてDA事業本部機械学習チーム所属の機械学習エンジニアを募集しております。
募集要項では、どういった人材を求めているかという点にフォーカスして記載しているので、「実際にどういった業務を行っているのか」についてフォローする内容を本記事で記載します。
対象とするデータソース
対象とするデータソースの種類としては以下のようなものが挙げられます。
- テーブルデータ・時系列データ
- テキストデータ
- 画像データ
- 音声データ
画像データと音声データについては、あまり取り扱ってこなかったのですが、直近のお引き合いもあり、徐々に対応領域として拡大中です。 また、動画データについては現状案件対応実績がないので、今後の検討事項となります。
対象とする業務範囲(守備範囲)
機械学習課題に対する各フェーズに対する機械学習チームの守備範囲としては、現状以下のスタンスとなっていますが、ニーズや体制によって今後変化する可能性があります。
- 現状の守備範囲
- データ取り込み
- データ前処理
- モデル学習
- モデル評価
- モデルデプロイ(推論処理のバッチ化、API化など)
- 現状は守備範囲外
- データ収集(センサーからのログ収集部分など)
- 学習用データのアノテーション・ラベリング
- 推論結果を利用したBIやアプリケーション部分の開発
使用する技術要素
機械学習チームで使用する主な技術要素について以下列挙します。
- やはりAWSのサービス(AI/ML)がメイン
- その他クラウドサービス (GCP, Azure)も検討対象
- 機械学習関連のツール・ライブラリ・フレームワーク
- TensorFlow
- PyTorch
- Apache MXNet
- etc…
- プログラミング言語としてはPython (たまにR)になりがち
主に使用するAWSサービス
業務としてAWS上での環境構築や開発がメインになりますが、特に登場しやすいサービスについてまとめます。
- 汎用的に利用可能な領域に関して対応するために、自力で学習はせずあらかじめ用意された学習済みモデルを使ったAIサービス
- Amazon Rekognition
- 画像識別や物体検出など
- Amazon Polly
- 音声合成
- Amazon Transcribe
- 音声認識
- Amazon Comprehend
- キーフレーズ抽出・感情分析などのテキスト解析
- Amazon Rekognition
- 特定用途に特化したカスタムモデルを複雑なコーディング不要で実現可能なサービス
- Amazon Forecast
- 時系列予測
- Amazon Personalize
- レコメンデーション・パーソナライズ
- Amazon Rekognition Custom Label
- 手持ちの画像データを学習させることで独自の画像分類モデルを作成
- Amazon Forecast
- 機械学習システム開発のためのコーディングやモデル開発環境として利用可能なサービス
- Amazon SageMaker
- 機械学習の各種開発・運用環境をサービス化
- AWS Deep Learning AMIs
- 深層学習モデル開発でよく利用されるライブラリなどがインストールされたAMI
- Amazon SageMaker
対応案件実績
機械学習チームがこれまで対応した案件について、幾つかピックアップしてご紹介します。
テキストマイニング案件
- 社内にあるテキストデータ(アンケートや議事録、レポートの類)を分析するPoC案件
- テキストから経営課題になり得る内容を抽出
- さらにテキストをテーマ別に分類
コンテンツ配信サービス向けレコメンドエンジン作成案件
- コンテンツ配信サービスのレコメンドエンジンをイチから作成(Pocでなく本番環境対応)
- 当初はAmazon SageMakerを使用して作成した学習モデルからレコメンドを生成
- 途中でAmazon PersonalizeがGAとなり、SageMakerによる学習モデルとのA/Bテストを経てPersonalizeに移行
- アイテムベースレコメンド(これを観た人には○○もオススメ)とユーザーベースレコメンド(あなたへのオススメ)の両方を実装
- 既に本番リリース済み。現在も稼働中。
機械学習基盤構築案件
- オンプレで実装・稼働している機械学習システムをAWS上に載せ替え
- 単純なリフト&シフトでなく、MLOpsを考慮した機械学習基板として再構築
- お客様側の開発チームに対するSageMakerの網羅的なレクチャー
- SageMakerだけでなく、データレイク部分(S3、Athena,Glue)や実行制御部分(API Gateway + Lambda)もカバー
- オンプレからPrivate Link(Interface VPC Endpoint)経由で機械学習基板へのアクセスなど、ネットワークやセキュリティの考慮もあるゴリゴリのインフラ環境構築
今後の展望
- 安定的な案件の獲得とチームビルディング
- 現状多数のお引き合いがありますが、これを安定的に案件化できるように十分な体制を作ります。
- 画像関連の機械学習課題への対応
- 前述の通り、これまであまり取り扱ってこなかった画像をデータソースとする案件について、徐々に対応を拡大していきます。
- MLOpsを意識した総合的な機械学習システムの導入支援
- 直近で、運用まで意識した機械学習基板の構築に関するお引き合いが増えていることもあり、MLOpsに関するナレッジ・ノウハウ獲得の強化に加えて、インフラに強みを持つメンバーの採用強化も視野に入れています。
- 機械学習をコアに持つ自社サービスの開発
- メンバーの人数に依らない汎用的な支援体制と収益構造を構築するために、機械学習をコアとする自社サービスの開発も検討中です。ここでもインフラに強みを持つメンバー、またアプリケーション開発に強みを持つメンバーを必要としています。
こんな人にマッチするかも
ここまでの内容で薄々感づかれているかもしれませんが、機械学習に関する知識やスキルも重要ではありつつ、クラウド上のインフラやアプリケーション開発のスキルを有する「ハイブリッドな人材」を特に求めている状況です。
もちろん機械学習だけでなく、データエンジニアリング全般に興味があるという意味でのハイブリッド人材も大歓迎です。
- データエンジニアリング全般に興味があります!
- AWSサービス・インフラならまかせろ!
- アプリケーション・フロントエンドも絡めたい!
- etc…
まとめ
以上、DA事業本部 インテグレーション部 機械学習チームのご紹介でした。
どちらかというと人材募集に寄った内容ではありますが、業務内容を見て機械学習課題に関する支援を希望されるというお話についてももちろん大歓迎です。
各方面の皆様、何卒よろしくお願いいたします。